Распределение количественных признаков
Построены графики ядерных оценок для количесвтвенных признаков. Для качесвенных признаков нет смысла строить, так как они распределены по группам.
Построим графики для признаков trestbps и cp, посмотрим, как распределёны значения trestbps в зависимости от значений cp.
cdpolt демонстрирует разное распределение признака trestbps в зависимости от значения переменной cp.
boxplot показывают неоднородность в распределении признаков.
dotchart демонстрируют неоднородность в распределении признаков.
stripchart демонстрируют неоднородность в распределении признаков.
Создадим массив с двумя выбросами и применим к нему тесты Граббса и Диксона.
Было выявлено два значения выбросов (минимальное и максимально). Они и были удалены из выборки.
Cначала было убрано наибольшее значение, наименьшее было убрано после второго прогона. Это произошло из-за того, что критерий Диксона за проход может убрать только одно значение.
Сделаем 10% пропусков в данных и заполним их двумя способами.
В обоих методах получили схожие значение ошибки заполнения данных.
Сгенерируем данные из нормального распределения следующих видов: 1) N(0, 1) n = 100 2) N(0, 1) n = 1000 3) N(7, 3) n = 100 4) N(7, 3) n = 1000
С помощью разных методов проверим данные на нормальное распределение.
Функции распределения для разных распределений повторяют друг друга с точностью до масштаба. При увеличении количества объектов функция распрделения становиться более гладкой.
Подобно графикам функций распределения: при увеличении числа элементов выборки график становиться более гладким.
По данному тесту выборка удовлетворяет нормальному распределению.
Критерий Колмогорова-Смирнова
Критерий Шапиро-Уилка
Критерий Андерсона-Дарлинга
Критерий Крамера фон Мизеса
Колмогорова-Смирнова в модификации Лиллиефорса
Для всех критериев значение p-value больше критического значение 0.05 у нормального рапределения N(0, 1), селедовательно принимаем гипотезу о нормальности данных. Для N(7, 3) для всех тестов кроме Колмогорова-Смирнова при n = 1000 принимаем гипотезу.
Будем рассматривать данные из колонки trestbps, так как ее график наиболее схож с графиком нормального распределения.
Возьмём выборку из 50 элементов.
Половина тестов указывает на то, чтобы принять гипотезу, при этом все результаты на R для малой выборки подтверждают гипотезу о нормальности распределения, значит можно говорить нормальности данных.
Возьмём все данные признака trestbps.
Все тесты указывают на то, что нужно отвергнуть гипотезу.Итого, результаты не дают нам однозначно сделать вывод о том, что данные имеют нормальное распределение.
7. Продемонстрировать применение для проверки различных гипотез и различных доверительных уровней (0.9, 0.95, 0.99) следующих критериев: a. Стьюдента, включая односторонние варианты, когда проверяемая нулевая гипотеза заключается в том, что одно из сравниваемых средних значений больше (или меньше) другого. Реализовать оценку мощности критериев при заданном объеме выборки или определения объема выборки для достижения заданной мощности; b. Уилкоксона-Манна-Уитни (ранговые); c. Фишера, Левене, Бартлетта, Флигнера-Килина (проверка гипотез об однородности дисперсий).
Будем рассматривать данные по колонкам trestbps и thalach, так как у них более менее схожие параметры.
Принимаем гипотезу о том, что среднее параметра trestbps меньше среднего параметра thalach.
Рассмотрим разные выборки из признака trestbps.
В различных выборках из признака trestbps данные схожи между собой по среднему.
Рассмотрим признаки trestbps и thalach.
Признаки trestbps и thalach имеют одно и то же распределение.
Построим корреляционные матрицы.
Признаки очень слабо коррелируют между собой. Самая высокая по модулю корреляция между признаками slope и oldpeak.
Проверим независимость колонок sex (пол) и target (наличие болезни).
Отвергаем нулевую гипотезу о независимости пола и наличия болезни.
Проверим независимость колонок sex (пол) и target (наличие болезни).
Отвергаем нулевую гипотезу о независимости пола и наличия болезни.
Проверим независимость колонок sex (пол) и target (наличие болезни).
Отвергаем нулевую гипотезу о независимости пола и наличия болезни.
Проверим независимость колонок sex (пол), target (наличие болезни) и exang (стенокардии, вызванной физической нагрузкой).
Следовательно отвергаем нулевую гипотезу о независимости пола, наличии болезни и стенокардии, вызванной физической нагрузкой.
Построим корреляционную матртицу
Признаки очень слабо коррелируют между собой. Самая высокая по модулю корреляция между признаками slope и oldpeak.
Применим данный метод ко всем признакам.
Получились значения близкие к единице, что указывает на очень слабую коллинеарность признаков.
Применим данный метод ко всем признакам в паре с target.
Отвергаем нулевую гипотезу об отсутствии влияния признака на наличие болезни для age, sex, cp, trestbps, thalach, exang, oldpeak, ca, thal, chol, fbs, slope; Принимаем нулевую гипотезу для restecg.Для R получены другие результаты для chol, fbs, slope.
Попробуем предугадать значение trestbps (давление в состоянии покоя) от age (возраста).
Построили две модели, получилось не очень хорошо (судя по точкам на графике и не могло получится хорошо). Наверно, влияет, что в выборке люди как с болезнью, так и без.
-Узнал о 12 статистических методах -Научился их применять с помощью языков Python и R -На R удобнее реализованы данные методы -Некоторые методы дают разные результаты в разных языках на одних и тех же данных -Интересно и полезно провёл время